第5章深層学習に基づく統計的パラメトリック音声合成 - nikkie-memos

第5章深層学習に基づく統計的パラメトリック音声合成

統計的パラメトリック音声合成

HMM音声合成

隠れマルコフモデル利用

単一のモデル

→ DNN音声合成

隠れマルコフモデルを深層ニューラルネットワークで置き換え

全結合型

RNN

2つのモデル

継続長モデル：音素単位の言語特徴量を入力として、音素継続長を予測する

duration model

音響モデル：フレーム単位の言語特徴量から音響特徴量を予測する

acoustic model